首页> 外文OA文献 >Bilingually motivated word segmentation for statistical machine translation
【2h】

Bilingually motivated word segmentation for statistical machine translation

机译:统计机器翻译的双语动机分词

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We introduce a bilingually motivated word segmentation approach to languages where word boundaries are not orthographically marked, with application to Phrase-Based Statistical Machine Translation (PB-SMT). Our approach is motivated from the insight that PB-SMT systems can be improved by optimizing the input representation to reduce the predictive power of translation models. We firstly present an approach to optimize the existing segmentation of both source and target languages for PB-SMT and demonstrate the effectiveness of this approach using a\udChinese–English MT task, that is, to measure the influence of the segmentation on the performance of PB-SMT systems. We report a 5.44% relative increase in Bleu score and a consistent increase according to other metrics. We then generalize this method for Chinese word segmentation without relying on any segmenters and show that using our segmentation PB-SMT can achieve more consistent state-of-the-art performance across two domains. There are two main\udadvantages of our approach. First of all, it is adapted to the specific translation task at hand by taking the corresponding source (target) language into account. Second, this approach does not rely on manually segmented training data so that it can be automatically adapted for different domains.
机译:我们针对没有字词边界的语言引入了基于双语的分词方法,并将其应用于基于短语的统计机器翻译(PB-SMT)。我们的方法基于这样的见解,即可以通过优化输入表示以降低翻译模型的预测能力来改进PB-SMT系统。我们首先提出一种用于优化PB-SMT的现有源语言和目标语言细分的方法,并使用\ ud-中文-英语MT任务证明该方法的有效性,即测量该细分对PB-SMT性能的影响。 PB-SMT系统。我们报告了Bleu评分相对增加了5.44%,并且根据其他指标也持续增加。然后,我们在不依赖任何分割器的情况下将这种方法推广到了中文分词中,并表明使用我们的分割PB-SMT可以在两个域上实现更一致的最新性能。我们的方法有两个主要优点。首先,通过考虑相应的源(目标)语言,使其适应于手头的特定翻译任务。其次,这种方法不依赖于手动分割的训练数据,因此可以针对不同的领域自动进行调整。

著录项

  • 作者

    Ma, Yanjun; Way, Andy;

  • 作者单位
  • 年度 2009
  • 总页数
  • 原文格式 PDF
  • 正文语种 en
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号